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Автоматизированный стенограф 
украинской речи 


В статье рассматривается автоматизированный стенограф для получения текста стенограммы из звукового 
файла на основе системы распознавания речи с участием оператора. Записанная фонограмма обрабатывается 
системой распознавания слитной речи многих дикторов из больших словарей (болыше 10 тыс. слов). 
Оператор исправляет допущенные ошибки для получения текста, пригодного для дальнейшей работы. 
Он также вводит новые слова, не знакомые системе распознавания. На основе анализа ошибок и новых слов 
производится дообучение системы распознавания, что позволяет улучшать показатели надежности 
распознавания речи в процессе эксплуатации системы стенографирования. 


Стенографирование широко используется для обработки и документирования 
материалов заседаний и совещаний различного уровня, для работы секретарей, 
журналистов и так далее. Компьютеры значительно расширили возможности и 
позволили увеличить гибкость применения систем стенографирования. На данный 
момент становится актуальным уменьшить долю ручного труда в таких системах. 
Для этого предлагается использовать автоматическое распознавание речи для 
превращения звука в текст. 

Речь каждого человека сугубо индивидуальна. Поэтому перевести звук в текст 
по нажатию одной кнопки — задача довольно сложная для системы стенографи- 
рования. Такая система должна максимально упростить работу оператора и уско- 
рить перевод звукового файла в текстовый, а также учесть все особенности речи 
диктора. Существует много программно-аппаратных комплексов автоматизирован- 
ного стенографирования с различными возможностями, но даже самый простой 
позволяет увеличить скорость перевода звука в текст в несколько раз. 

Автоматическое распознавание слитной речи многих дикторов из больших 
словарей значительно упрощает работу оператора, сводя её до исправления ошибок, 
допущенных системой стенографирования. Дообучение системы позволяет сокра- 
щать количество ошибок в процессе эксплуатации. 


1. Автоматизированная У5 автоматическая 


Системы стенографирования можно условно разделить на три категории в 
зависимости от соотношения участия человека и компьютера в процессе создания 
стенограмм. 

1. Автоматические (без участия человека в процессе распознавания речи). 

2. Автоматизированные (компьютер распознает поток речи, человек участ- 
вует в этом процессе в той или иной степени). 

3. Стенографирование при помощи компьютера (человек набирает текст, а 
компьютер используется как магнитофон и печатная машинка). 
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Разница между автоматической и автоматизированной системами заклю- 
чается в надежности автоматического распознавания речи. 

Опыт эксплуатации показывает, что первичная стенограмма, созданная чело- 
веком, содержит ошибки, которые исправляются в процессе редактирования набран- 
ного текста. В среднем количество ошибок достигает 5 на одну страницу текста, что 
составляет надежность 98 %, поскольку одна страница содержит приблизительно 
2000 знаков или 250 слов. Таким образом, система стенографирования становится 
автоматической при надежности распознавания речи выше 98 %. 

Такая надежность уже сегодня достижима для автоматического распознавания 
речи при некоторых ограничениях. При этом распознается речь только одного дик- 
тора. Для изолированно произносимых слов словарь достигает 15 тыс. слов, а для 
слитной речи такая надежность достигается при словаре в 1 тыс. слов. 

Поэтому на настоящий момент актуальным является создание программ 
распознавания речи, свободных от таких ограничений. Для стенографирования 
необходимо достигнуть объемов словаря от 10 тыс. слов до нескольких миллионов. 
Количество задействованных дикторов от 100 до одной тысячи. При этом должна 
распознаваться слитная речи в реальном времени для современных компьютеров. 

Автоматизированную систему стенографирования имеет смысл применять 
при надежности 80 % и выше. При этом оператору необходимо будет исправлять не 
более, чем каждое пятое слово в тексте, что можно делать при прослушивании 
звуковой дорожки в процессе ее воспроизведения. 


2. Система распознавания слитной речи 


В данной работе как базовая система используется инструментарий НТК [1] на 
основе скрытых Марковских моделей (СММ). Инструментарий НТК использовался 
для построения акустических и лингвистических моделей. Для распознавания речи 
был разработан программный комплекс, совместимый с акустическими и лингвис- 
тическими моделями НТК. 


2.1. Пользовательский вид программы 


Пользовательский вид программы стенографирования приведен на рис. 1. В верх- 
нем окне схематически изображается осциллограмма звуковой дорожки с автома- 
тически выделенными сегментами речи (фразами или синтагмами). Оператор выделяет 
нужный ему сегмент и прослушивает его. При этом он может просмотреть ответ 
распознавания, который можно исправить в случае ошибки. После редактирования 
ответ добавляется в стенограмму и автоматически происходит переход к следующему 
сегменту. 

Пользователь имеет возможность перейти к нужному диктору, или прослу- 
шать необходимый сегмент стенограммы. 

Распознавание производится автоматически в фоновом режиме работы програм- 
мы. Все ошибки распознавания фиксируются и после того, как закончилось формиро- 
вание стенограммы, происходит дообучение системы стенографирования. При этом в 
обучающую выборку добавляются новые слова и информация о новых дикторах. 
Таким образом, надежность распознавания повышается в процессе эксплуатации 
системы стенографирования. 
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ПВ Стенографирование - 2002_09_03 
Файл Стенограмма Сегментация 


ГИ 1) № У 


Воспроизвести 
Курсор Сегмент _ | 


130400 714717000 [шановм народы депутати 


Перейти] 800 = 14826200 Диктор ЛИТВИН ВМ. я Вставить. 


Шановний Голово Верховно! Ради, шановн! народн! депутати, колеги, представники засоблв масово! нформаци, щиро д; ^ 
`уряду привтати вас з початком друго! сесй Верховно! Ради Четвертого скликання. 
Друга сесйя Верховно! Ради Украйни розпочинае свою роботу в той час, коли започатковано новий етап сустльно-полп — 
перехщд до ншо! модел! державного устрою парламентсько-президентсько! республики. При цьому впевнен! ми сыдом! 
внесення суттевих змн до Конституци Украйни. Зьмн не хаотичних, а систелних, грунтовно продуманих 1 концептуально 
| Верховна Рада, упевнен!, об'еднають сво! зусилля в процес! здИйснення конститущйно! реформи. Т в зв'язку з цим я хо" 
'Украйни готовий задяти увесь свйЙ потенщал 1 спёльно з Президентом, парламентом включитися в цей процес. 

сновна мета полягае не в тому, щоб в черговий раз длити посади та владн! повноваження, а в першу чергу, щоб стиль 
ефективну модель державно! влади, об'еднати стратегию формування конкурентноспроможно! сучасног економ!ки з закр, 
розвитком громадянського суспльства. Адже основн! критерий, за якими народ ощшнюе ефективнсть, сощальну кориснст 
кожного громадянина, який включае пдну заробпну плату, пенсне забезпечення, доступну яксну медицину, належну ‹ 
За 7 ммсящв поточного року реальна заробтна плата в Украйн! зросла на 18,8 видсотка, роздрибний товарооборот - на 16,5 
тенденций, як! дають нам можливсть виршувати стратейчний напрямок розвитку гидвищення внутришнього ринку, плато 
як основа зниження залежност! Украни ед зовнишньоГ економично! { полтично! кон'юнктури. 


< | > 


Рисунок 1 — Общий вид программы стенографирования 


2.2. Предварительная обработка речевого сигнала 


Речевой сигнал преобразуется в последовательность векторов признаков с интер- 
валом анализа 25 мс и шагом анализа 10 мс. Вначале речевой сигнал фильтруется 
фильтром высоких частот с характеристикой Р(2) =1-0,972"'. Затем применяется окно 
Хэмминга и вычисляется быстрое преобразование Фурье. Спектральные коэффициенты 
усредняются с использованием 26 треугольных окон, расположенных в мел-шкале, и 
вычисляются 12 кепстральных коэффициентов. 

Логарифм энергии добавляется в качестве 13-го коэффициента. Эти 13 коэф- 
фициентов расширяются до 39-мерного вектора параметров путем дописывания первой 
и второй разностей от коэффициентов, соседних по времени. Для учета влияния канала 
применяется вычитание среднего кепстра. 


2.3. Акустическая модель 


В качестве акустических моделей используются скрытые Марковские модели. 
56 украинских контекстно-независимых фонем (включая фонему-паузу) моделируются 
тремя состояниями Марковской цепи без пропусков. Используется диагональный вид 
Гауссовских функций плотности вероятности. 

Редко встречающиеся фонемы моделируются 64 смесями Гауссовских функ- 
ций плотности вероятности, более часто встречающиеся фонемы моделируются 
большим числом смесей, наиболее часто встречающиеся фонемы используют 1024 
смесей. 

Словарь транскрипций создается автоматически из орфографического словаря 
с использованием контекстно-зависимых правил. 


2.4. Многодикторная система 


Распознавание речи независимо от диктора является задачей, не решенной до 
конца в распознавании речи. В [2] использовалась модель кооперативного распоз- 
навания, в которой при обучении смешивалась речь разных дикторов. При этом речь 
разных дикторов рассматривалась как разные реализации речи одного диктора. 
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Было показано, что надежность распознавания улучшалась не только для дикторов, 
входящих в кооператив, но также и для дикторов, незнакомых системе. Скорее 
всего, это связано с тем, что речь знакомых системе дикторов похожа на речь других 
дикторов. 

Опыт применения такого подхода показал, что при использовании больше 100 
дикторов в кооперативе надежность распознавания речи становится очень близкой 
к системе, независимой от диктора. 

Методы работы с многими дикторами, заложенными в инструментарий НТК, 
такие как нормализация длины речевого тракта (Уоса| Тгасё Гете МогтаПзайоп) и 
адаптация модели при помощи линейного преобразования максимального правдо- 
подобия (Махипит ГлКейвоо4 Глпеаг Веотез$1оп), позволяют улучшить надежность 
распознавания речи для отдельных дикторов при условии, что каким-то независимым 
способом заранее определяется диктор. Предполагается использовать методы иденти- 
фикации дикторов для автоматического определения говорящего. 


3. Акустическое и текстовое наполнение 


3.1. Обучающая выборка 


Обучение производилось на выступлениях депутатов Верховной Рады Украины, 
записанных через телевизионную сеть. Парламентская речь характеризуется некото- 
рыми особенностями: 

1. Это спонтанная речь. Встречаются отдельные доклады, зачитываемые по 
подготовленному заранее тексту, однако мало дикторов в точности придерживаются 
этого текста. 

2. Из-за ограничения во времени выступления многих дикторов произносятся в 
слишком быстром темпе. 

3. Часто речь эмоционально окрашена. 

4. В основном записи состоят из непрерывных выступлений дикторов, но в них 
встречаются реплики ведущего заседания или других депутатов. 

5. Качество записи достаточно высокое, поскольку каждое депутатское место 
оснащено микрофоном. 

Для обучения использовались записи, длиной в 99 тыс. секунд, в которых 
встретилось 211,224 слов. Всего было записано 208 дикторов. Дикторов, с длиной 
больше 300 с, оказалось 87. В табл.1 приведено время записи для нескольких 
дикторов. Видно, что время записи сильно отличается для разных дикторов. 


Таблица 1 — Время записи для нескольких дикторов в обучающей выборке 


Диктор Секунд Диктор Секунд 
ЫТ 15805 НАУ 1620 
РОВ 3715 М 1484 
БАН 2594 МАУ 1305 
МО$ 2490 АЗА 1305 
МОЕ 1728 СНЕ 1140 


Обучение производилось на предварительно размеченной выборке. Для этого 
запись выступления автоматически разбивалась на фразы из нескольких слов, огра- 
ниченные паузами больше 400 мс. Каждой фразе ставилась в соответствие метка в 
виде текста из стенограммы. Затем автоматически производилось преобразование 
текста в последовательность фонем в соответствии с контекстно-зависимыми прави- 
лами. Выборка, размеченная таким образом, использовалась для построения акусти- 
ческой модели. 
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3.2. Контрольная выборка 


Распознавание производилось на выступлениях депутатов, записанных в 
отличные от обучающей выборки дни. Для распознавания использовались записи 
длиной в 30 тыс. секунд, в которых встретилось 68819 слов. Всего использовались 
записи 118 дикторов. Дикторов с длиной больше 300 с оказалось 37. Записи 
36 дикторов не встретились в обучающей выборке. Таким образом, эти дикторы 
оказались неизвестными для системы распознавания. В табл. 2 приведено время 
записи нескольких дикторов. 


Таблица 2 — Время записи для нескольких дикторов в контрольной выборке 


Диктор Секунд Диктор Секунд 
ИТ 4964 ТЕЗ 567 
ЭНГ 1133 ВАВ 550 
ЭТО 887 ТЕК 521 
СНЕ 842 ВАМ 484 
УАЗ 786 1409) 424 


3.3. Текстовый материал 


Словарь был составлен из текстов стенограмм заседаний Верховной Рады 
Украины. С официального сайта Верховной Рады были загружены все стенограммы 
заседаний, начиная с 1991 года, что составило больше 100 Мб текста. Текст был 
модифицирован для того, чтобы убрать служебную информацию из стенограмм 
(например, аплодисменты), записать числа в текстовом виде, а также отделить 
русский текст от украинского. Результирующий текст разделен на две части — 
первая содержит все тексты, кроме 2002 — 2003 годов, вторая содержит стенограммы 
2002 — 2003 годов. Первая часть состоит из 14 629 111 слов, во второй содержится 
409 244 слов. 

Для первой части был составлен словарь из 156 108 слов и подсчитаны 
частоты встречаемости слов в этом словаре. Табл. 3 показывает долю текстов 
покрываемыми словами с определенными частотами. Видно, что весь словарь 
покрывает 99,6 % нового текста, не входящего в частотный словарь. Доля текста 
покрываемого словами с частотами выше 50 составляет больше 94 %. Для этого 
достаточно иметь словарь в 15 тыс. слов. 


Таблица 3 — Доля текстов, входящих в частотные словари 


а Слов этой Слов этой 
Частота частотном НВ % в % 
словаре тексте без тексте 2002 — 
2002 — 2003 гг. 2003 гг. 
1 156108 14629111 100,0 407608 99,6 
2 98601 14571604 99,6 406563 99,3 
3 78022 14530446 99,3 405753 99,1 
5 58936 14465646 98,8 404293 98,7 
10 40364 14343499 98,0 401544 98,1 
50 15609 13805357 94,3 388470 94,9 
100 10032 13415092 91,7 378873 92,5 
200 6219 12878264 88,0 365510 89,3 
300 4622 12488459 85,3 355606 86,8 


Исследовалась надежность распознавания в зависимости от объема частотного 
словаря с использованием биграммной модели языка. Результаты представлены в 
табл. 4, из которой видно, что надежность незначительно увеличивается при 
увеличении размера словаря. Словаря объемом в 15 тыс. слов достаточно для 
распознавания речи с небольшим (2 %) уменьшением надежности от максимально 
возможного словаря. 
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Таблица 4 — Надежность распознавания для разных объемов частотного словаря 


Объем словаря 64 000 50 000 30000 | 20000 | 15000 10000 | 5000 
АдоЖНОет 68,59 68,54 68,38 67,79 67,15 65,49 | 62,18 
распознавания, % 


4. Биграммная модель языка 


При распознавании речи использовалась биграммная модель речи, которая 
задавалась вероятностями появления пар слов. Поскольку в текстах, на которых 
вычислялись статистики, встретились далеко не все пары слов, возможные для 
данного словаря, то для аппроксимации ненаблюдаемых пар слов использовались 


так называемые обратные (фаск ой) коэффициенты [1]. 
Биграммная модель языка позволила исправить много ошибок распознавания, 
которые не укладывались в модель языка. В табл. 5 показаны примеры исправления 


таких ошибок. 


Таблица 5 — Примеры исправления ошибок распознавания при помощи 


биграммной модели языка 


Было сказано 


Свободный порядок слов 


Биграммная грамматика 


доброго ранку 


дов во ранку 


доброго ранку 


шановн! народн! депутати 
запрошен! та гост! 
Верховно! Ради 


шановн! народ! депутати 
запрошен! та гост! Верховно! 
Ради 


шановн! народн! депутати 
запрошен! та гост! Верховно! 
Ради 


прошу вас шановн! колеги 
займати вас сво? робоч1 
м1сця 


прошу в о з шановн! колег 
1йзе матизвий робоче 
меця 


прошу вас шановн! колеги 
займати вас сво! робоч1 м!1сця 


прошу займати робоч1 
м1сця 


прошу з е мав те й робоче 
й мсця 


прошу займати робоч! м1сця 


прошу шдготуватися до 
реестраци 


прошу б й готуватися 
до реестраци б 


прошу шдготуватися до 
реестраци 


5. Модификация транскрипций 


Для превращения орфографического текста в фонемный был разработан режим 
разбора орфографического текста и сформирован набор контекстно-зависимых правил, 
по которым орфографическое слово превращается в последовательность фонетических 
символов (путем преобразования одной последовательности символов в другую). При- 
чем, генерируется сразу несколько вариантов транскрипции для случаев неодно- 
значностей, заданных в правилах. 

Для всех дикторов был создан общий вариант транскрибирования. Кроме этого 
все дикторы были разделены на группы, для которых разработаны свои правила 
индивидуализированного транскрибирования, которые заменяют или дополняют 
основной вариант. 

Результаты изучения речи многих дикторов свидетельствуют, что ни один из 
них не придерживается орфоэпических правил произношения в полном объеме. 
В первую очередь это касается запрещенных литературной нормой регрессивной 
ассимиляции за глухостью в паре фонем «звонкая + глухая» и оглушение согласных 
перед паузой. Дикторы с такими особенностями произношения были выделены в 
отдельную группу. Обработанный материал свидетельствует, что звонкие согласные 
в речи таких дикторов в позиции перед глухими оглушаются: 

тобто > топто 
шдтримати —> п1ттрИ мати. 

Случаи оглушения звонких согласных перед паузой встречаются у большин- 
ства дикторов: робив > робИ ф. 
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Были выделены и многие другие характерные черты произношения разных 
дикторов: редуцирование окончаний некоторых слов (прилагательных, глаголов) в 
слитной речи (шановний — шан Овни; доброго > дОбро), «акание» (робити —> р 
абИти), твёрдое произношение мягких согласных (синього — с Иного) идр. 

Такие тенденции моделируются путем изменения правил перехода от одних 
последовательностей символов к другим и расширением существующих правил. 


Таблица 6 — Примеры модификации транскрипций слов 


Слово Обычная транскрипция Модифицированная транскрипция 
шановний шанОвний шанОвни 
коли коли коли 

кОли 

коли 
ИЛЬКИ тТл'ки т[л'ки 

т1лки 
при ПРИ ПРИ 

при 
головуючий голов Уйучий голов Уйучи 
тобто тОбто топто 
шдтримати п1дтрИмати п1ттрИмати 
народного нарОдного нарОдно 
вдповдно в'1дпов [дно в'1тпов [дно 
робив робИв робИф 
доброго дОброго дОбро 
СИНЬого сИн ого сИного 
робити робИти рабИти 


В табл. 6 приведены примеры индивидуализированных транскрипций для не- 
скольких слов. В основном здесь задействованы правила оглушения и редуцирования 
окончаний в словах. Для некоторых слов (служебных в том числе) задается несколько 
вариантов транскрипций — с ударением на разных слогах (если в языке возможны 
разные варианты прочтения таких слов) или вообще без ударения: коли > колИ;кО 
ли; коли. 


6. Результаты экспериментов 
по распознаванию слитной речи 


Эксперименты проводились на описанной контрольной выборке в виде запи- 
сей заседаний в течение одного дня. В табл. 7 приведены результаты распознавания 
записей для разных дней. Надежность распознавания сильно отличается в зави- 
симости от того, какие дикторы попали в выборку. Например, в выборку РАУ2 
попал длинный доклад диктора ЭНГ, который читал его скороговоркой. В четвертой 
колонке приведена надежность распознавания для индивидуальных модифици- 
рованных транскрипций. Применение индивидуальных транскрипций позволило 
улучшить надежность распознавания почти на один процент. 


Таблица 7 — Надежность распознавания для разных выборок 


Общие Индивид. 
Порция Длина КВ, транскр. транскр. Изменение, % 
сек Надежность, Надежность, 
% % 
РАУ1 1849 71,23 72,66 1,43 
РАУ2 5374 61,97 63,05 1,08 
РАУЗ 10032 68,16 68,73 0,57 
РАУЗа 5990 68,69 69,75 1,06 
РАУ4 7260 76,66 77,13 0,47 
Всего 30505 69,28 70,06 0,78 
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Табл. 8 представляет результаты распознавания порции РАУ4 для некоторых 
дикторов, где также приведены длина обучающей выборки и темп произнесения для 
каждого диктора. Анализ результатов показывает, что в среднем указанные факторы 
(длина ОВ и темп речи) влияют на надежность распознавания. Надежность 
распознавания для отдельных дикторов сильно отличается — от 50% до 90%. 
Последняя колонка показывает изменение надежности распознавания речи для 
индивидуальных транскрипций. Видно, что для некоторых дикторов надежность 
ухудшается, для них следует применять другие индивидуальные транскрипции. 


Таблица 8 — Надежность распознавания для нескольких дикторов 


Число 

Длина | Длина Темп, Общие Индивид. Измене- 

Диктор ОВ, с КВ, с а слов/с | транскр., % | транскр., % | ние, % 

1 ИТ 15805 2336 5721 2,45 79,85 80,56 0,71 
2 РОК 3715 411 853 2,08 80,30 80.54 0,24 
3 МОВ 1728 362 950 2,62 70,74 71,47 0,73 
4 М 1484 125 255 2,04 80,00 80,78 0,78 
5 МАТ 1305 174 292 1,68 80,14 77,05 —3,09 
6 ко 998 107 209 1,95 86,60 89,0 2,40 
7 КМ 585 223 417 1,87 64.27 66,43 2,16 
8 ОМ 483 100 209 2,09 79,90 80,38 0,48 
9 МГБ 195 148 312 2,11 69,87 69,23 —0,64 
10 7УА 25 101 205 2,03 80,0 80,49 0,49 
И СОГ 0 379 790 2,08 78,48 78,35 —0,13 
12 КАР 0 375 927 2,47 80,91 81,77 0,86 
Всего 7260 16210 2,23 76,66 77,13 0,47 


Время распознавания для компьютера Репнит 2@Нй составляет около 10 секунд 
для одной секунды речи. Применение алгоритмов ускорения принятия решений [3] 
позволит достичь реального времени распознавания речи. 


Заключение 


Статья описывает экспериментальную систему автоматизированного стенографи- 
рования. Показана возможность построения таких систем при условии повышения 
надежности распознавания речи до необходимых для практических применений 
показателей. Предложено использовать индивидуальную информацию о дикторах 
для улучшения надежности распознавания. 
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В.В. Пилипенко, В.В. Робейко 

Автоматизований стенограф украйиського мовлення 

У статт! розглядаеться автоматизований стенограф для отримання тексту стенограми з1 звукового 
файлу на основ! системи розшзнавання мовлення за участ! оператора. Записана фонограма опрацьовуеться 
системою розшзнавання мовлення кооперативу дикторйв з великих словниюв (@лыше 10 тис. слв). 
Оператор виправляе допущен! помилки для отримання тексту, придатного для подальшо! обробки. Ейн 
також уводить нов! слова, нев1дом! для системи розшзнавання. На основ! аналзу помилок 1 нових слв 
проводиться донавчання системи розшзнавання, що дозволяе покращити показники надйност! 
розшзнавання мовлення в процес! експлуатаци системи стенографування. 
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